AWS SageMaker是AWS專門為Machine Learning開發所建置的環境。從資料蒐集、清洗、特徵工程的建置、模型的訓練、部署與監控,SageMaker都提供各種相容與彈性的開發環境與服務建置。
主要從S3來去做資料的接收,但亦可設定連接至AWS生態系的各種資料服務,例如先前所提到的EMR、Athena、Redshift都是。
由於開發上,每一個流程可能都會需要有專屬的開發環境,為了減少開發環境管控問題,在SageMaker內可以透過ECR(Elastic Container Registery)來去做開發環境管控。ERC是存放各種Image的地方,每一個Image會有各自定義好的作業系統與軟體安裝環境。
SageMaker資料前處理流程:
首先把資料從S3拉到SageMaker的環境,這個環境配有資料前處理專屬的Image去跑一個container服務,接著我們在這個container服務上去進行資料前處理,資料處理後,我們再把資料傳送回S3去做存放。
SageMaker模型訓練:
SageMaker有內建的模型,只要指定S3訓練資料的位置,即可開始執行模型的訓練。關於內建的模型,會再下一篇文章跟大家說明。當然,如果要自己建立模型來訓練也是可以的,我們可以指定所需要的運算資源和Image來去執行模型的訓練。
SageMaker也提供自動化模型部署服務,讓我們不用花太多心思在底層infra的管控上,可以直接部署模型到服務上。
ChatGPT來考試:
問題1:Amazon SageMaker的主要用途是什麼?
A) 託管網站和應用程式
B) 處理和分析大數據
C) 訓練和部署機器學習模型
D) 設計和管理雲基礎架構
答案:C) 訓練和部署機器學習模型
解釋: Amazon SageMaker的主要用途是簡化機器學習模型的訓練和部署過程,使開發人員能夠更容易地構建和部署機器學習模型。
問題2:Amazon SageMaker中的“Notebook Instance”用於什麼目的?
A) 儲存和管理數據集
B) 創建虛擬私有雲(VPC)
C) 運行Jupyter筆記本
D) 建立Amazon RDS數據庫
答案:C) 運行Jupyter筆記本
解釋: Amazon SageMaker的“Notebook Instance”是一個Jupyter筆記本環境,用於開發、訓練和測試機器學習模型。
問題3:Amazon SageMaker中的“Endpoint”是用於什麼目的?
A) 儲存和管理數據集
B) 部署訓練好的機器學習模型
C) 創建虛擬私有雲(VPC)
D) 建立Amazon RDS數據庫
答案:B) 部署訓練好的機器學習模型
解釋: Amazon SageMaker的“Endpoint”用於部署訓練好的機器學習模型,以便用戶可以通過API對模型進行推論。
問題4:Amazon SageMaker中的“SageMaker Ground Truth”是什麼?
A) 自動化機器學習模型訓練工具
B) 一種自動標記數據的服務
C) 計算資源的配置管理工具
D) 雲端數據儲存服務
答案:B) 一種自動標記數據的服務
解釋: SageMaker Ground Truth是Amazon SageMaker的一個服務,用於自動標記數據,以便用於機器學習模型的訓練。
問題5:Amazon SageMaker中的“SageMaker Studio”是什麼?
A) 一個簡化機器學習模型部署的服務
B) 一個用於大數據處理的集成開發環境
C) 一個用於數據可視化的工具
D) 一個整合了Jupyter筆記本和機器學習工具的集成開發環境
答案:D) 一個整合了Jupyter筆記本和機器學習工具的集成開發環境
解釋: Amazon SageMaker Studio是一個整合了Jupyter筆記本和機器學習工具的集成開發環境,用於機器學習模型的開發和部署。